Dados de Áreas
Dados de áreas (areal data) são observações agregadas em unidades espaciais discretas, como bairros, municípios ou regiões administrativas. Essas unidades são representadas por polígonos em um sistema de informação geográfica (SIG). Exemplos comuns incluem taxas de criminalidade por bairro, incidência de doenças por município e dados socioeconômicos por região.
As áreas podem ser regulares ou irregulares. Em geral, áreas representadas por regiões geográficas como estados e municípios são denominadas de espacialmente irregulares, enquanto áreas representadas por pixels, como imagens de sensoriamento remoto, são denominadas de espacialmente regulares (formado por uma grade de espaços iguais) (Scalon 2024).
Nesta abordagem, modelamos uma variável resposta agregada em polígonos (ex: taxas de crime por bairro) usando variáveis independentes, corrigindo a autocorrelação espacial via matriz de pesos \(W\).
Os dados das variáveis aleatórias podem ser de qualquer tipo (contínuas, discretas, etc) e tipicamente, representam toda a área, ou seja, não se dispõe da localização exata dos eventos dentro da área, mas sim de um valor que foi agregado para aquela área. Embora esses dados estejam associados com toda a área, em geral, eles são atribuídos a um ponto específico dentro da área, esse ponto pode ser o centroide da área (Scalon 2024).
O objetivo da análise de dados de áreas, é o mesmo da análise dos outros tipos de dados espaciais, ou seja, caracterizar o processo estocástico que gerou os dados (Scalon 2024).
Na análise de dados de áreas, como existe apenas um valor \(z_i\) para a área \(W_i\), deve-se assumir algum tipo de estacionariedade e para alguns casos será necessário assumir a normalidade multivariada (Scalon 2024).
Para esse tipo de análise de dados espaciais, dados de áreas, pode estar interessado em um ou mais dos seguintes objetivos.
- Pacotes:
spdep,spatialreg. - Referência: Anselin (1988).
0.1 Cálculos e Intuições
Matriz de pesos \(W\): constrói-se a partir da vizinhança (por exemplo Rainha/Queen). Cada elemento \(w_{ij}\) indica influência do polígono \(j\) sobre \(i\). Em estilo row-standardized (“W”), cada linha é dividida pela soma da linha, de modo que \(\sum_j w_{ij}=1\).
Moran’s I (teste de autocorrelação espacial): \[I = \frac{n}{S_0} \frac{\sum_{i}\sum_{j} w_{ij}(y_i-\bar{y})(y_j-\bar{y})}{\sum_i (y_i-\bar{y})^2},\] onde \(S_0=\sum_i\sum_j w_{ij}\) e \(n\) é o número de polígonos. No R usamos
lm.morantest()que calcula \(I\) nos resíduos do OLS.Modelos espaciais (intuição matemática):
Spatial Lag (SAR): \[Y = \rho W Y + X\beta + \varepsilon, \quad \varepsilon\sim N(0,\sigma^2 I).\] A estimação procura \(\rho,\beta,\sigma^2\) maximizando a verossimilhança (ou por métodos de momentos). No R usamos
lagsarlm()que internamente otimiza a verossimilhança do sistema \((I-\rho W)Y = X\beta + \varepsilon\).Spatial Error (SEM): \[Y = X\beta + u, \quad u = \lambda W u + \xi, \quad \xi\sim N(0,\sigma^2 I).\] Aqui a dependência aparece no termo de erro e é estimada via
errorsarlm().
Passos práticos para análises:
- Ajustar OLS e calcular resíduos:
res = residuals(modelo_ols). - Calcular Moran’s I nos resíduos:
lm.morantest(modelo_ols, listw); se significativo, considerar modelos espaciais. - Ajustar SAR/SEM e comparar AIC/logLik para selecionar modelo.
- Interpretar
betacondicionais ao efeito espacial estimado (rho ou lambda).
- Ajustar OLS e calcular resíduos:
1 Modelo espacial autoregressivo - SAR
O modelo espacial autoregressivo (SAR) é descrito conforme (Anselin1988?)
\[\begin{equation} Y = \delta WY + X\beta + \epsilon \label{eq:sar} \end{equation}\]
Onde
\(Y\) é um vetor de observações ( n \(\times\) 1 ) nas n áreas
\(X\) é a matriz das variáveis independentes, de tamanho ( n \(\times\) i ),
\(\delta\) é o coeficiente de defasagem da variável dependente espacial,
\(\beta\) é o vetor de parâmetros da regressão, de tamanho ( i \(\times\) 1 ),
\(W\) é a matriz de ponderação, de tamanho ( n \(\times\) n ),
\(\epsilon\) é o vetor de erros, de tamanho ( n \(\times\) 1 ) não correlacionados que seguem uma distribuição normal com média zero e variância constante, isto é, \(\epsilon \sim N(0, I\sigma^2\))